Blackwell ist der Name einer im Jahr 2024 von Nvidia vorgestellten Mikroarchitektur. Sie stellt eine Weiterentwicklung von Hopper dar und wurde nach dem Mathematiker David Blackwell benannt. Das System ist dafür ausgelegt, Training und Inferencing von Large Language Models sowie die Performance komplexer Datenbankoperationen zu verbessern. NVIDIA gibt an, die Performance für Inferencing um das 30-fache erhöht und die Energieeffizienz um einen Faktor von bis zu 25 verbessert zu haben. Die Spitzenleistung eines GB200-Chips liegt bei 20 petaFLOPS. Für ein Board werden zwei GB200 GPUs mit einer Grace CPU kombiniert; Grace beinhaltet 144 Arm Neoverse CPU-Kerne. Blackwell-Chips werden bei TSMC unter Anwendung des CoWoS-L Prozesses hergestellt. Es wurden folgende neue Funktionen und Technologien eingeführt: Für die neue Blackwell GB200 GPU werden zwei Dies zu einem Chip verbunden. Dies ist nötig, da bereits jeder der beiden Dies die produktionstechnisch maximale Größe für eine Fotomaske ausnutzt. Eine GB 200 GPU hat mit 208 Milliarden Transistoren mehr als 2,5 mal so viele Transistoren wie Hopper hatte. Die Herstellung erfolgt auf Basis des 4NP-Prozesses von TSMC. Die 5. Generation von NVLink ermöglicht eine Kommunikation von GPU zu GPU mit bis zu 1,8 TB/sec; dies ist doppelt so schnell wie die bei Hopper eingesetzte 4. Generation NVLink war. Bis zu 576 GPUs können damit verknüpft werden. Der neue NV-Link Switch ermöglicht ein Switching mit einer Bandbreite von 14,4 TB/s. Nvidia Confidential Computing ermöglicht eine sichere Kommunikation basierend auf einer hardwarebasierten Verschlüsselung. Die neue Decompression Engine kann bis zu 800 GB/s entpacken, was im Zusammenwirken mit 8 Stapeln des schnellen HBM3e-Speichers und dem Hochleistungs-Bus-System, Datenbankabfragen und Analysen signifikant beschleunigt. Die zweite Generation der Transformer-Engine ermöglicht eine verbesserte Performance bei Training und Inferencing von LLMs und Mixture-of-Experts-Modellen mit bis zu 10 Billionen Parametern. Zum Vergleich: GPT-4 hat 1,8 Billionen Parameter. Blackwells neue Gleitkommaeinheit unterstützt nun auch 6-Bit und 4-Bit-Datentypen, was das Training und Inferencing weiter beschleunigt. Eine dedizierte RAS-Engine (Reliability, Availability and Servicabiltity) verfügt u. a. über tausende von Sensoren; damit sollen Fehler frühzeitig erkannt und eingegrenzt werden können, womit Ausfallzeiten minimiert werden. In einem GB200NVL72-Cluster werden 36 GB200 Chips kombiniert. Eine Speichergröße von bis zu 13,5 TB kann angesprochen werden und die Daten mit bis zu 576 TB/s übertragen werden. In einer Keynote im Vorfeld der Computex kündigte Jen-Hsun Huang im Juni 2024 für das Jahr 2025 eine verbesserte Version mit dem Namen Blackwell Ultra an. Anstelle von 8 Stapeln HBM3e-Speicher kommen hier 12 Stapel zum Einsatz. Anfang Oktober 2024 wurden die ersten DGX B-200 Systeme an Microsoft und OpenAI ausgeliefert. Der Anlauf der Serienproduktion wird durch Probleme bei der Fertigung verzögert und vermutlich zwischen November 2024 und Januar 2025 stattfinden. Im Oktober 2024 betrug die Wartezeit von Bestellung bis Auslieferung bereits 12 Monate. Unter anderem Google und Meta haben Blackwell-Bestellungen in Höhe von ~10 Mrd. $ aufgegeben.
Developed by StudentB